摘要。我们介绍了Autober,这是一种用于VI-SUAL实体识别的自回归模型。我们的模型通过采用检索增强的结构发电来扩展自回归的多模态大型语言模型。它可以减轻台面外的低性能,同时在需要视觉推理的查询中出色。我们的方法学会了通过与没有外部撤回器的序列序列物镜并行进行硬性负面训练,以在巨大的标签空间内区分相似的实体。在推论期间,检索到的候选人答案列表通过删除无效的解码路径来明确指导语言构成。所提出的方法在最近提出的烤箱-Wiki基准测试中实现了不同数据集拆分的显着改善,而所见实体的准确性从32.7%上升到61.5%。它通过实质性的两位数边际表现出了在看不见和查询分裂的卓越性能,同时还可以保留有效地转移到其他无需进一步训练的基准的通用视觉问题上的能力。
主要关键词
![arxiv:2402.18695v2 [CS.CV] 26 Jul 2024PDF文件第1页](/bimg/5/58b2fb0888a5a1a3e899f7257ccf425eb836332a.webp)
![arxiv:2402.18695v2 [CS.CV] 26 Jul 2024PDF文件第2页](/bimg/b/b1e168b7a622f22552a5dfec793a404b9ffceffc.webp)
![arxiv:2402.18695v2 [CS.CV] 26 Jul 2024PDF文件第3页](/bimg/c/c8789c5c4f4c8caaa63c1edba609fb185c7bf1fd.webp)
![arxiv:2402.18695v2 [CS.CV] 26 Jul 2024PDF文件第4页](/bimg/2/23b1dd7b85976175f04fd1f4f881965a390c6c7c.webp)
![arxiv:2402.18695v2 [CS.CV] 26 Jul 2024PDF文件第5页](/bimg/d/deeaa241aba096c61207aac750cd53f6e38e1383.webp)
